2.6 Distribuciones de frecuencias
La organización de los datos constituye la primera etapa de su tratamiento, puesto que facilita los cálculos posteriores y evita posibles confusiones. Realmente, la organización de la información tiene una raíz histórica y, actualmente, con el desarrollo de los medios informáticos, tiene menos importancia desde un punto de vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que permitiera resumirlos y comprenderlos de una forma más o menos sencilla.
La organización va a depender del número de observaciones distintas que se tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los datos de maneras diferentes.
Cuando se tiene un gran número de observaciones, pero muy pocas distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompañado de la frecuencia (también llamada frecuencia absoluta) con la que aparece. Este es el tipo de tabla que acompaña a una variable discreta.
\(x_i\) | \(n_i\) |
---|---|
1 | 12 |
3 | 12 |
5 | 3 |
6 | 45 |
8 | 72 |
cualitativa
o categórica
, como por ejemplo la distribución del color del cabello de veinte personas
:
Color del pelo | Número de personas |
---|---|
Rubio | 2 |
Moreno | 6 |
Castaño | 5 |
Verde | 7 |
Esta historia la conocemos todos desde 1997 (cuando se estrenó Titanic). Desde estas fechas (o quizá de antes) se trabaja muy a menudo con el fichero de datos que contiene la lista de pasajeros, junto con la distribución de los mismos según edad, sexo, supervivencia y clase social.
Este fichero lo utilizaremos en más de una ocasión a lo largo de estos apuntes. En el siguiente trozo de código (chunk), los datos, al estar en formato excel, los leemos mediante la libreria readxl
. El comando datatable
convierte la tabla en interactiva.
library(readxl)
Datos_Titanic <- read_excel("Data/Pasajeros-Titanic.xlsx")
# Interactive table
datatable(Datos_Titanic, options = list(pageLength = 5))
2.6.1 Gráficos para variables discretas o categóricas
Como una imagen vale más que mil palabras, con las representaciones gráficas se puede obtener una idea del contenido de una variable (su forma, cómo se distribuye, qué valores aparecen más y cuáles menos…). Para una variable discreta (con pocos valores, en general) o categórica existen dos gráficos fundamentales: los diagramas de barra y los de sectores.
En R los comandos básicos para hacer estos diagramas son barplot
y pie
.Para hacer un diagrama de barras:
# Recordemos que, en R, para escoger una
# variable de un fichero, se usa Nombre_fichero$Variable
y=Datos_Titanic$clase
# El comando table crea una tabla de frecuencias
# es necesario crear esta tabla para hacer los gráficos
x=table(y)
# diagrama de barras
barplot(x, main="Titulo principal",
xlab="Titulo del eje horizontal")
Y uno de sectores:
y=Datos_Titanic$clase
x=table(y)
# diagrama de sectores
pie(x, main="Diagrama de Sectores",
xlab="Clase del pasajero")
R permite hacer gráficos mucho más profesionales (y escalables). A lo largo de este manual usaremos varias veces la librería mosaic (que precisa de la libreria lattice a su vez), por ser cómoda de utilizar. Por ejemplo, un gráfico de barras se hace (Figura 2.8):
library(lattice)
library(mosaic)
#diagrama de barras
bargraph( ~ clase, data = Datos_Titanic,
main = "Gráfico de Barras")
En principio, el gráfico no varía demasiado (tampoco la sintaxis). Con la librería mosaic, la sintaxis general es
comando( ~ variable, data = fichero de datos)
(la ~
es el apóstrofe de la ñ que está al lado del 4 en el teclado). Se escribe comando( ~ variable)
cuando hacemos un análisis de una sola variable, y
comando( ~ variable_1, groups= variable_2 )
si queremos dividir la variable_1 por grupos, según la variable_2. Por ejemplo (Figura 2.9):
# diagrama de barras relacionando 2 variables
library(lattice)
library(mosaic)
bargraph(~ clase, groups=sexo, data = Datos_Titanic,
main = "Gráfico de Barras")